12.1 SQL 생성 AI 평가의 난제와 패러다임 전환 12.1.1 텍스트 유사도 기반 평가(BLEU, Rouge)의 한계와 무용성 12.1.2 구문적 동등성(Syntactic Equivalence)과 의미적 동등성(Semantic Equivalence)의 차이 12.1.3 실행 결과 비교(Execution Result Comparison) 오라클의 정의와 필요성 12.1.4 결정론적 SQL 오라클이 해결해야 할 주요 과제: 비결정적 출력과 실행 환경의 통제